Neste relatório apresentaremos a resolução da Questão 1 do Trabalho de Econometria. Utilizamos os dados gerados a partir do script disponibilizado pelo professor, sendo baseados em uma simulação da equação de Mincer com erros homoscedásticos e heterocedásticos.
A base de dados mostra uma simulação de um mercado de trabalho pela equação de Mincer. A equação de Mincer relaciona o salário com a escolaridade e experiência profissional. Os dados foram gerados incluindo heterogeneidade na escolaridade e com variáveis relevantes como sexo, raça e distribuição regional.
Além das variáveis explicativas (education, experience, male, white e dummies regionais), existem duas versões do salário: uma sob homoscedasticidade e outra sob heterocedasticidade. Dessa forma, investigaremos relaçoes entre variáveis através de regressões, testes para testar heterocedasticidade, estimaremos pelo método Feasible Generalized Least Squares (FGLS) e iremos comparar os resultados entre métodos.
dplyr::glimpse(data)
## Rows: 2,000
## Columns: 13
## $ education <dbl> 12, 9, 11, 12, 6, 4, 14, 12, 6, 9, 10, 9, 4, 11, 17, 8…
## $ male <int> 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, …
## $ white <int> 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, …
## $ experience <dbl> 14, 8, 12, 17, 18, 4, 9, 9, 16, 19, 15, 23, 2, 4, 33, …
## $ region <chr> " Southeast ", " Southeast ", " Northeast ", " Southea…
## $ north <dbl> 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ northeast <dbl> 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, …
## $ south <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ centerwest <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ log_wage_homo <dbl> 9.751107, 8.325719, 8.420855, 8.564897, 8.442613, 7.94…
## $ wage_homo <dbl> 17173.230, 4128.706, 4540.783, 5244.301, 4640.665, 280…
## $ log_wage_hetero <dbl> 9.305316, 7.866646, 8.639224, 9.043058, 8.750026, 7.32…
## $ wage_hetero <dbl> 10996.321, 2608.801, 5648.946, 8459.610, 6310.851, 152…
| Statistic | Mean | Median | St. Dev. | Min | Max | N |
| education | 9.592 | 9 | 3.312 | 4 | 18 | 2,000 |
| male | 0.518 | 1 | 0.500 | 0 | 1 | 2,000 |
| white | 0.434 | 0 | 0.496 | 0 | 1 | 2,000 |
| experience | 15.470 | 15 | 9.524 | 0 | 45 | 2,000 |
| north | 0.094 | 0 | 0.291 | 0 | 1 | 2,000 |
| northeast | 0.268 | 0 | 0.443 | 0 | 1 | 2,000 |
| south | 0.142 | 0 | 0.350 | 0 | 1 | 2,000 |
| centerwest | 0.083 | 0 | 0.276 | 0 | 1 | 2,000 |
| log_wage_homo | 8.577 | 8.567 | 0.606 | 6.630 | 10.520 | 2,000 |
| wage_homo | 6,383.054 | 5,256.032 | 4,213.816 | 757.535 | 37,040.320 | 2,000 |
| log_wage_hetero | 8.556 | 8.547 | 0.836 | 5.597 | 11.307 | 2,000 |
| wage_hetero | 7,437.383 | 5,151.824 | 7,693.899 | 269.522 | 81,385.690 | 2,000 |
| education | male | white | experience | region | north | northeast | south | centerwest | log_wage_homo | wage_homo | log_wage_hetero | wage_hetero |
| 0.345 | 0.965 | 1.143 | 0.616 | 3.114 | 1.655 | 2.454 | 3.325 | 0.071 | 0.660 | 0.098 | 1.034 | |
Além das estatísticas básicas, julgamos produtivo incluir o coeficiente de variação (CV), pois o CV permite avaliar a variabilidade relativa de cada variável, comparando dispersões entre variáveis com escalas diferentes. Isso complementa a análise descritiva e ajuda a interpretar melhor a heterogeneidade presente na base simulada.
Observando as estatísticas, a escolaridade média é de 9,6 anos, com variabilidade moderada (CV = 0,330), o que sugere uma distribuição relativamente concentrada em torno da média. A proporção de homens (51,3%) e de indivíduos brancos (45,4%) coincide com os valores definidos no processo de simulação, e seus coeficientes de variação próximos de 1 refletem o comportamento esperado de variáveis binárias.
A experiência média é de aproximadamente 15 anos e apresenta maior dispersão relativa (CV = 0,613), o que é consistente com seu intervalo mais amplo. As dummies regionais mostram coeficientes de variação elevados, pois a categoria correspondente possui menor representatividade.
Os salários, tanto em nível quanto em log, apresentam padrões coerentes com a estrutura da equação de Mincer. O log-salário homocedástico possui baixa variabilidade (CV = 0,071), enquanto os salários em nível exibem maior dispersão, devido à transformação exponencial. Já o log-salário heterocedástico e seu correspondente em nível têm CVs maiores, refletindo a variância crescente introduzida no modelo heterocedástico.
Analisando os quatro gráficos concluímos que tanto a escolaridade
quanto a experiência possuem relação positiva com os salários, mas essa
relação se apresenta de maneira mais clara quando o salário é
transformado em log. No primeiro gráfico, que relaciona salário em nível
e escolaridade, observa-se um forte aumento da dispersão à medida que os
anos de estudo crescem, indicando heterocedasticidade: indivíduos com a
mesma escolaridade apresentam salários muito distintos, e essa variância
cresce para níveis mais altos de educação.
Já nos gráficos que utilizam o log do salário, a relação tanto com
experiência quanto com escolaridade torna-se mais linear e com dispersão
mais homogênea. Desse modo, nós cremos que a transformação logarítmica
reduz a heterocedasticidade dos dados. Além disso, percebe-se que a
escolaridade apresenta uma relação mais crescente com o log do salário,
enquanto a experiência também tem efeito positivo, porém com maior
dispersão. Logo, os gráficos indicam que modelar o salário em log
melhora a estabilidade da variância e mostra os retornos crescentes
associados à educação e à experiência.
data <- data %>% mutate(experience2 = experience^2)
# Região referência vai ser sudeste
# Gênero referência vai ser mulher
# Raça referência vai ser não branca
regress_4 <- lm(log_wage_homo ~ education + experience + experience2 + north + northeast + south + centerwest + male + white, data = data
)
# Cria a variável experience^2
data <- data %>% mutate(experience2 = experience^2)
# Região referência vai ser sudeste
# Gênero referência vai ser mulher
# Raça referência vai ser não branca
regress_4_hetero <- lm(log_wage_hetero ~ education + experience + experience2 + north + northeast + south + centerwest +
male + white, data = data
)
| Dependent variable: | |
| log | |
| Educação (anos) | 0.128*** |
| (0.002) | |
| Experiência | 0.037*** |
| (0.003) | |
| Experiência² | -0.001*** |
| (0.0001) | |
| Homem | -0.193*** |
| (0.028) | |
| Branco | -0.178*** |
| (0.019) | |
| Região Norte | 0.072*** |
| (0.024) | |
| Região Nordeste | 0.063** |
| (0.030) | |
| Região Sul | 0.236*** |
| (0.016) | |
| Região Centro-Oeste | 0.199*** |
| (0.016) | |
| Constant | 6.795*** |
| (0.034) | |
| Observations | 2,000 |
| R2 | 0.669 |
| Adjusted R2 | 0.667 |
| Residual Std. Error | 0.350 (df = 1990) |
| F Statistic | 445.896*** (df = 9; 1990) |
| Note: | *p<0.1; **p<0.05; ***p<0.01 |
A regressão indica que escolaridade e experiência aumentam o salário, embora a experiência tenha retornos decrescentes. Todas as regiões fora a de referência exibem salários mais altos. Já homens e indivíduos brancos apresentam salários maiores na amostra. O modelo explica bem a variação do log do salário (R² ≈ 0,67), sugerindo que os determinantes incluídos capturam grande parte das diferenças salariais observadas.
| Dependent variable: | |
| log | |
| Educação (anos) | 0.128*** |
| (0.005) | |
| Experiência | 0.036*** |
| (0.005) | |
| Experiência² | -0.001*** |
| (0.0001) | |
| Homem | -0.165*** |
| (0.056) | |
| Branco | -0.203*** |
| (0.038) | |
| Região Norte | 0.038 |
| (0.047) | |
| Região Nordeste | 0.110* |
| (0.059) | |
| Região Sul | 0.190*** |
| (0.031) | |
| Região Centro-Oeste | 0.184*** |
| (0.031) | |
| Constant | 6.870*** |
| (0.067) | |
| Observations | 2,000 |
| R2 | 0.324 |
| Adjusted R2 | 0.321 |
| Residual Std. Error | 0.689 (df = 1990) |
| F Statistic | 105.800*** (df = 9; 1990) |
| Note: | *p<0.1; **p<0.05; ***p<0.01 |
Os dois histogramas apresentam distribuições de resíduos aproximadamente simétricas e centradas em zero. Os dois histogramas indicam que os erros, tanto homocedástico quanto heterocedástico, possuem o formato próximo ao de uma distribuição normal.
A principal diferença dos gráficos está na amplitude e dispersão dos resíduos. No modelo homocedástico, os valores variam em torno de −1.2 a 1.1, enquanto no modelo heterocedástico essa faixa é maior, alcançando aproximadamente −2.2 a 2.1. Logo, ao permitir variância não constante, o modelo captura maior variabilidade nos erros.
Apesar dessa diferença na escala, a forma geral das distribuições permanece semelhante: ambas são simétricas, sem caudas exageradas ou assimetrias significativas. Dessa forma, conclui-se que a heterocedasticidade altera mais a magnitude dos resíduos do que sua estrutura ou comportamento central, influenciando a precisão dos erros-padrão e da inferência estatística.
teste_white_homo <- bptest(regress_4, ~ fitted(regress_4) + I(fitted(regress_4)^2))
| statistic | parameter | p_valor |
| 0.219 | 2 | 0.896 |
Regressão com log_wage_homo:
Não rejeitamos a hipótese nula de homocedasticidade. O comportamento dos resíduos é compatível com variância constante, como esperado, já que o salário foi gerado de forma homocedástica.
teste_white_hetero <- bptest(regress_4_hetero, ~ fitted(regress_4_hetero) + I(fitted(regress_4_hetero)^2))
| statistic | parameter | p_valor |
| 19.526 | 2 | 0.0001 |
Regressão com log_wage_hetero:
Rejeitamos fortemente a hipótese nula. Há evidências claras de heterocedasticidade, o que também era esperado, pois o salário nesta versão foi gerado com variância não constante.
sigma2_chapeu <- residuals(regress_4_hetero)^2
# Regressão FGLS (weights = 1/sigma2_chapeu)
regress_fgls <- lm(log_wage_hetero ~ education + experience + I(experience^2) +
male + white + north + northeast + south + centerwest, data = data, weights = 1/sigma2_chapeu
)
| Dependent variable: | ||
| log_wage_hetero | ||
| (1) | (2) | |
| education | 0.128*** | 0.128*** |
| (0.005) | (0.0003) | |
| experience | 0.036*** | 0.035*** |
| (0.005) | (0.0003) | |
| experience2 | -0.001*** | |
| (0.0001) | ||
| I(experience2) | -0.001*** | |
| (0.00001) | ||
| north | -0.165*** | -0.170*** |
| (0.056) | (0.006) | |
| northeast | -0.203*** | -0.201*** |
| (0.038) | (0.002) | |
| south | 0.038 | 0.037*** |
| (0.047) | (0.003) | |
| centerwest | 0.110* | 0.117*** |
| (0.059) | (0.003) | |
| male | 0.190*** | 0.188*** |
| (0.031) | (0.002) | |
| white | 0.184*** | 0.184*** |
| (0.031) | (0.002) | |
| Constant | 6.870*** | 6.871*** |
| (0.067) | (0.004) | |
| Observations | 2,000 | 2,000 |
| R2 | 0.324 | 0.998 |
| Adjusted R2 | 0.321 | 0.998 |
| Residual Std. Error (df = 1990) | 0.689 | 1.000 |
| F Statistic (df = 9; 1990) | 105.800*** | 117,738.000*** |
| Note: | *p<0.1; **p<0.05; ***p<0.01 | |
A estimação por FGLS produziu coeficientes mais próximos dos valores verdadeiros utilizados na geração dos dados. Isso ocorre porque o FGLS corrige a heterocedasticidade presente no modelo com log_wage_hetero, ajustando os pesos de cada observação de acordo com a variância dos erros. Assim, as estimativas tornam-se mais eficientes e menos distorcidas do que as obtidas via OLS. Comparando os dois métodos, é possível observar que os coeficientes do FGLS não apenas mantêm os mesmos sinais e magnitudes gerais, mas também apresentam erros-padrão muito menores, refletindo maior precisão. Como a equação minceriana foi simulada com heterocedasticidade, esse resultado era esperado: o FGLS recupera melhor os parâmetros populacionais e fornece estimativas mais alinhadas com o modelo gerador dos dados.
| Dependent variable: | ||
| log_wage_hetero | ||
| (1) | (2) | |
| education | 0.129*** | 0.138*** |
| (0.0005) | (0.00004) | |
| experience | 0.035*** | 0.020*** |
| (0.0005) | (0.00001) | |
| experience2 | -0.0005*** | |
| (0.00001) | ||
| north | -0.144*** | -0.139*** |
| (0.006) | (0.0004) | |
| northeast | -0.201*** | -0.197*** |
| (0.004) | (0.0003) | |
| south | 0.074*** | 0.073*** |
| (0.005) | (0.0004) | |
| centerwest | 0.048*** | 0.028*** |
| (0.006) | (0.001) | |
| male | 0.247*** | 0.207*** |
| (0.003) | (0.0002) | |
| white | 0.176*** | 0.204*** |
| (0.003) | (0.0002) | |
| Constant | 6.813*** | 6.802*** |
| (0.007) | (0.0004) | |
| Observations | 200,000 | 200,000 |
| R2 | 0.348 | 1.000 |
| Adjusted R2 | 0.348 | 1.000 |
| Residual Std. Error | 0.684 (df = 199990) | 9.994 (df = 199991) |
| F Statistic | 11,871.090*** (df = 9; 199990) | 119,004,808.000*** (df = 8; 199991) |
| Note: | *p<0.1; **p<0.05; ***p<0.01 | |
| Dependent variable: | ||
| log_wage_hetero | ||
| (1) | (2) | |
| education | 0.128*** | 0.128*** |
| (0.005) | (0.0003) | |
| experience | 0.036*** | 0.035*** |
| (0.005) | (0.0003) | |
| experience2 | -0.001*** | |
| (0.0001) | ||
| I(experience2) | -0.001*** | |
| (0.00001) | ||
| north | -0.165*** | -0.170*** |
| (0.056) | (0.006) | |
| northeast | -0.203*** | -0.201*** |
| (0.038) | (0.002) | |
| south | 0.038 | 0.037*** |
| (0.047) | (0.003) | |
| centerwest | 0.110* | 0.117*** |
| (0.059) | (0.003) | |
| male | 0.190*** | 0.188*** |
| (0.031) | (0.002) | |
| white | 0.184*** | 0.184*** |
| (0.031) | (0.002) | |
| Constant | 6.870*** | 6.871*** |
| (0.067) | (0.004) | |
| Observations | 2,000 | 2,000 |
| R2 | 0.324 | 0.998 |
| Adjusted R2 | 0.321 | 0.998 |
| Residual Std. Error (df = 1990) | 0.689 | 1.000 |
| F Statistic (df = 9; 1990) | 105.800*** | 117,738.000*** |
| Note: | *p<0.1; **p<0.05; ***p<0.01 | |
Quando aumentamos a amostra de 2000 para 200000 observações, a diferença das estimativas de OLS e FGLS ficam mais evidentes. Anteriormente quando analisamos para 2000 observações, o FGLS já mostrava coeficientes mais próximos dos valores verdadeiros da equação de Mincer. Porém com 200000 observações, o FGLS converge para valores praticamente iguais aos parâmetros populacionais, enquanto o OLS permanece enviesado em função da heterocedasticidade presente na variável dependente.
Além disso, os erros-padrão no FGLS ficam extremamente pequenos, refletindo um enorme ganho de precisão, o que é visível quand comparamos colunas: enquanto no OLS os erros-padrão são cerca de 0,003 a 0,006, no FGLS eles passam a ser de 0,0002 a 0,001. O mesmo ocorre com a qualidade do ajuste: o R² do FGLS atinge 1, indicando que o modelo praticamente recupera a estrutura de geração dos dados, enquanto o OLS mantém um R² bem inferior (0,348), pois continua ignorando a forma verdadeira da variância dos erros.
Logo, é possível concluir que aumentar a amostra mostra que o OLS não consegue recuperar os parâmetros corretos quando há heterocedasticidade relevante, enquanto o FGLS se torna ainda mais preciso e se aproxima dos valores reais usados na simulação.
Nossa análise focou na equação de Mincer, usando dados criados artificialmente com erros de variância constante e variável. As estatísticas resumidas e os gráficos revelaram conexões notáveis entre salário, nível de escolaridade e tempo de experiência profissional, além de indícios visuais de que a variabilidade salarial não era uniforme. Testes estatísticos formais validaram essas tendências: o teste de White não encontrou heterocedasticidade no modelo de variância constante, mas identificou evidências significativas no modelo com variância variável, alinhando-se com a forma como os dados foram produzidos.
As estimativas enfatizaram o quão crucial é usar métodos apropriados para gerenciar a variabilidade não uniforme. O MQO gerou resultados aceitáveis no contexto de variância constante, mas exibiu imprecisões e erros padrão aumentados quando aplicado ao modelo com variância variável. Por outro lado, o MQGF resolveu essa restrição, recuperando parâmetros mais próximos dos valores reais e demonstrando maior exatidão. Ao expandir a amostra para duzentas mil observações, a vantagem do MQGF se tornou ainda mais clara, enquanto o MQO permaneceu impreciso.
Em resumo, os resultados enfatizam que a existência de heterocedasticidade afeta diretamente a eficácia e a credibilidade das estimativas, e que abordagens como o MQGF são essenciais quando a variância dos erros não é constante. O estudo também ilustrou como simulações podem ser valiosas para entender o desempenho dos estimadores sob diferentes condições.